Hadoop 使用 MapReduce 排序思路

2014-04-04 00:00来源：中国存储网

导读：本文主要讲对key的排序，主要利用Hadoop的机制进行排序。1、Partitionpartition作用是将map的结果分发到多个Reduce上。当然多个reduce才能体现分布式的优势。2、思路由于每个partition内部是有序的，所以只

本文主要讲对key的排序，主要利用Hadoop的机制进行排序。

1、Partition

partition作用是将map的结果分发到多个Reduce上。当然多个reduce才能体现分布式的优势。

2、思路

由于每个partition内部是有序的，所以只要保证各partition间有序，即可保证全部有序。

3、问题

有了思路，如何定义partition的边界，这是个问题。

解决办法：hadoop提供了一个采样器帮我们预估整个边界，以使数据的分配尽量平均。

继续阅读

中国存储网声明：此文观点不代表本站立场，如有版权疑问请联系我们。

相关阅读

Hadoop2.6.0运行mapreduce之推断（speculative）执行（上）

在mapreduce中设计了Speculator接口作为推断执行的统一规范，DefaultSpeculator作为一种服务在实现了Speculator的同时继承了AbstractService，DefaultSpeculator是mapreduce的默认实现。

Ubuntu 12.04单机版环境中搭建hadoop详细教程

Ubuntu 12.04单机版环境中搭建hadoop详细教程，在Ubuntu下创建hadoop用户组和用，创建hadoop用户。

相同数据的排序上，Spark比MapReduce快3倍！

据测试结果得知，在使用了206个EC2节点的情况下，Spark将排序用时缩短到了23分钟。这意味着在使用十分之一计算资源的情况下，相同数据的排序上，Spark比MapReduce快3倍！

Spark vs. MapReduce时间节约66%，计算节约40%

这篇文章将介绍基于物品的协同过滤推荐算法案例在TDWSpark与MapReudce上的实现对比，相比于MapReduce，TDWSpark执行时间减少了66%，计算成本降低了40%。

Cloudera首席战略官：取代MapReduce未来会加大Spark等框架投入

过去两年，Hadoop社区对MapReduce做了很多改进，但关键的改进只停留在了代码层，Spark作为MapReduce的替代品，发展很快，其拥有来自25个国家超过一百个贡献者，社区非常活跃，未来可能取代MapReduce。